Cela vient par Inégalité de Cauchy-Schwarz et par caractère lipschitz du gradient.
On pose une fonction intermédiaire et on utilise la Formule de Taylor avec reste intégral dessus.
On développe et on fait un théorème belge pour se ramener à la formule voulue.
En évaluant \(f\) à \(x+t\nabla f(x)\), on a par l'inégalité précédente qqch qui se rapproche de ce que l'on veut.
Trouver la bonne valeur de \(t\) permet de conclure.
On pose une fonction intermédiaire \(\to\) son gradient est intéressant.
Elle est de plus convexe, et son gradient s'annule en \(x\).
On peut donc appliquer l'inégalité précédente.
On a le résultat voulu en développant \(f_x(x)\).
Cela se fait en additionnant deux fois l'inégalité de la question précédente, en \((x,y)\) et en \((y,x)\).
Cela se fait par l'Inégalité de Cauchy-Schwarz.